Text এবং Time ফিচার মেশিন লার্নিং এবং ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ। এখানে আমি টেক্সট এবং টাইম ফিচার ব্যবস্থাপনার জন্য কিছু কৌশল এবং উদাহরণ উপস্থাপন করছি।
Text Feature Management প্রক্রিয়ায় টেক্সট ডেটাকে প্রক্রিয়া করে, যাতে এটি মডেল প্রশিক্ষণের জন্য প্রস্তুত হয়। নীচে টেক্সট ফিচার ব্যবস্থাপনার একটি উদাহরণ দেওয়া হলো।
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
import nltk
# nltk থেকে স্টপওয়ার্ড ইনস্টল করা
nltk.download('stopwords')
# উদাহরণ ডেটা তৈরি
data = {
'reviews': [
'This product is great!',
'I did not like this item.',
'Amazing quality and fantastic service.',
'Worst experience ever.',
'Would buy again for sure.'
]
}
df = pd.DataFrame(data)
# টেক্সট প্রিপ্রসেসিং
# টেক্সটকে ছোট অক্ষরে রূপান্তর করা
df['reviews'] = df['reviews'].str.lower()
# স্টপওয়ার্ড সরানো
stop_words = set(stopwords.words('english'))
df['reviews'] = df['reviews'].apply(lambda x: ' '.join([word for word in x.split() if word not in stop_words]))
print("Preprocessed Text:")
print(df)
# TF-IDF ভেক্টরাইজেশন
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['reviews'])
# ভেক্টরাইজড ডেটা
print("\nTF-IDF Matrix:")
print(X.toarray())
Time Feature Management টাইমস্ট্যাম্প বা সময়ের উপর ভিত্তি করে তথ্য বিশ্লেষণের জন্য প্রয়োজনীয়। নীচে টাইম ফিচার ব্যবস্থাপনার একটি উদাহরণ দেওয়া হলো।
import pandas as pd
# টাইম সিরিজ ডেটা তৈরি
date_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D')
df = pd.DataFrame(date_rng, columns=['date'])
df['data'] = [100, 150, 200, 250, 300, 350, 400, 450, 500, 550]
print("Original Data:")
print(df)
# সময় ফিচার বের করা
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['weekday'] = df['date'].dt.weekday
print("\nData with Time Features:")
print(df)
# ল্যাগ ফিচার তৈরি করা
df['lag_1'] = df['data'].shift(1)
# চলমান গড় তৈরি করা
df['rolling_mean'] = df['data'].rolling(window=3).mean()
print("\nData with Lag and Rolling Mean:")
print(df)
Text এবং Time ফিচার ব্যবস্থাপনা মডেল প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ। উপরের উদাহরণগুলোতে টেক্সট ফিচার প্রিপ্রসেসিং এবং টাইম ফিচার থেকে নতুন বৈশিষ্ট্য তৈরি করার প্রক্রিয়া দেখানো হয়েছে। টেক্সট ডেটাকে প্রস্তুত করার জন্য প্রিপ্রসেসিং কৌশলগুলি ব্যবহার করা হয়েছে, যেমন টোকেনাইজেশন, স্টপওয়ার্ড সরানো, এবং TF-IDF ভেক্টরাইজেশন। টাইম ফিচারের জন্য, টাইমস্ট্যাম্প থেকে বিভিন্ন উপাদান বের করা হয়েছে এবং ল্যাগ ও চলমান গড় তৈরি করা হয়েছে, যা ভবিষ্যদ্বাণী এবং বিশ্লেষণে সহায়ক।
আরও দেখুন...